#Yann LeCun
圖靈獎得主 Yann LeCun:大模型是“死胡同”,下一步押在那一條路?
2025 年 11 月 19 日,圖靈獎得主 Yann LeCun 宣佈:自己將離開 Meta,轉向創辦一家專注 Advanced Machine Intelligence(AMI)的新公司。這不是普通的高管跳槽。(CNBC:Yann LeCun 即將離職,創立自己的初創公司)這點陣圖靈獎得主沒有選擇加入 LLM 的軍備競賽,而是投身一個被冷落多年的方向:世界模型。LeCun 用了一個極端詞語:大語言模型是通往人類智能的“死胡同”(dead end)。在 11 月 23 日的一場題為《Do LLMs Understand?》的公開對談中,他直接指出:LLM擅長語言表達,但缺乏對真實世界的理解。幾乎同時,OpenAI前首席科學家 Ilya Sutskever 在 11 月 25 日的播客中也提出:“Just Add GPUs(拼算力)”的時代結束了。一周之內,兩位元深度學習先驅不約而同地質疑主流路線。這不是偶然,而是技術路線集體轉向的訊號:後LLM時代,正在成形。第一節 | 為什麼他說大模型是死胡同?在討論世界模型之前,必須先搞清楚:為什麼Yann LeCun 會把 LLM 稱為“死胡同”。他給出的答案,比外界以為的更系統。① 模型越來越大,但理解沒有跟上LeCun 的原話是:LLM 在語言層面表現不錯,但它們並不理解世界。沒有常識,也沒有因果關係,只是大量統計相關性的堆疊。換句話說:規模能讓模型更像會說話的人,但不能讓它更像懂世界的人。事實上,Meta 的 Llama 4 就是最好的例證。2025 年 4 月發佈後,它在真實場景中的表現遠不如基準測試,甚至被開發者質疑過度最佳化了評測指標。正應驗了 LeCun 的判斷:語言流暢度提升了,但世界理解力沒有跟上。② LLM的能力天花板,已經在實驗室裡顯露他在公開對話中強調:我們看到性能正在飽和。更大的模型,不一定帶來更高的真實智能。訓練資料正在逼近極限,算力成本呈指數上漲,而理解力卻沒有同步提升。這就是他所謂的死胡同:繼續堆算力,邊際收益越來越低。OpenAI前首席科學家Ilya Sutskever也訪談中表達了類似觀點:單純100倍擴大算力規模,不會帶來質變。③ 語言只是副產品,物理世界才是智能核心他的核心觀點是:語言是人類智能的副產品,不是核心機制。這句話背後的邏輯是:語言只描述世界的一部分,而真正的智能來自對物理世界的建模、預測和行動。但LLM做不到這一點。它們連杯子為什麼不會穿過桌子都不理解。它們知道語言中的規律,卻不知道世界的規律。飛機的設計靈感來自鳥類,但不是簡單模仿鳥類的飛行方式。同樣,智能也不是靠模仿語言表面規律產生的。④ LLM做不到規劃,更做不到行動LeCun 的批判重點在於:LLM 只是在對話裡看起來聰明,但在涉及多步驟推理、長期規劃、具身互動時,能力驟降。他舉了一個刺眼的對比:一個十幾歲的孩子,20小時就能學會開車。 但我們到現在還沒有level 5的自動駕駛。一個孩子第一次就能清理餐桌、裝滿洗碗機。 但我們連能做家務的機器人都沒有。這些對比說明:智能不是說話的能力,而是行動的能力。而這恰恰是LLM的軟肋。LeCun 的邏輯不是反對大模型,而是認為:預測語言這條路走不到終點。要想讓 AI 真正具有理解、推理與行動能力,必須換一套架構。第二節 | 世界模型:下一代AI要如何看世界?如果語言模型無法理解世界,那該怎麼建造真正的智能?LeCun的答案是:讓AI學會看世界。他指出,未來的AI必須像人類和動物一樣,能夠從多模態輸入中建構出對世界的內部理解,然後基於這個理解預測和行動。這種能力,GPT-4沒有,Claude、Gemini也都沒有。但貓有,嬰兒有,人有。① 什麼是世界模型?LeCun 解釋說:我們用預測下一個詞來訓練語言模型,是因為語言中詞彙有限,可以列舉。但真實世界無限豐富,預測像素等級的未來根本不成立。真實世界是高維、連續、混沌的感官流。人類不是通過預測下一個字來理解世界,而是通過觀察、記憶、總結,在腦中形成了一個抽象世界的內部投影。比如:嬰兒不需要有人告訴他重力是什麼,摔幾次東西就懂了貓不需要語言指導,看幾次就知道跳多高能上桌子人類開車20小時就能掌握,靠的不是背規則,而是建立了對速度、距離、慣性的直覺模型LLM缺的就是這個投影空間,它沒有世界的內部表徵。這就是LeCun正在建構的新路徑:Joint Embedding Predictive Architecture(JEPA),聯合嵌入預測架構。② JEPA:一種全新的學習範式JEPA與LLM的核心差異體現在多個層面。在輸入形式上,LLM只處理語言token,而JEPA可以處理視訊、圖像、感測器等多模態資料。在學習目標上,LLM是預測下一個詞,JEPA則是預測抽象狀態的變化。在學習方式上,LLM依靠離散序列建模,JEPA結合了表徵學習和因果建模。最關鍵的是,LLM沒有行動能力,而JEPA天然具備規劃和執行介面。LeCun用了一個形象比喻:用LLM去理解真實世界,就像用聽說來教人開車。你可以背下所有交規,但永遠學不會真正駕駛。因為語言描述不了摩擦力、慣性、視野盲區的感覺,而這些正是行動智能的核心。③ 從模擬世界開始,訓練下一代AILeCun正在AMI推動的,是一種類似動物學習的AI訓練模式:首先在模擬環境中讓AI自主互動,然後從互動中提取因果關係,形成持續記憶,最終具備規劃行動的能力。這種模式不再依賴更多token,而是依賴更好的世界模型。他說:我們不需要能背百科全書的AI,我們需要能用眼睛和手理解世界的AI。如果說 LLM 是語言的大師,世界模型就是物理世界的學徒。Yann LeCun 選擇押注後者。這不僅是技術路線的分叉,更是對 AGI 本質的重新定義。第三節 | 不只 LeCun:另一個方向也在探索在質疑 LLM 這條路的,不只 LeCun 一個人。Sutskever 也認為,縮放時代已經結束,下一代智能需要新的架構基礎。兩位元深度學習先驅達成了共識,但他們給出的答案完全不同。① LeCun押注世界模型,Sutskever押注安全超智能LeCun的方向很明確:讓AI具備對物理世界的理解和行動能力。通過自監督學習、表徵建模、因果預測,建構能夠真正看世界、理解世界的系統。他判斷10年內會出現具身AGI的原型。Sutskever的關注點在另一邊:當前AI系統的泛化能力遠不如人類,在benchmark上表現出色,但在真實場景中容易陷入錯誤循環。這種脆弱性如果不解決,規模越大風險越高。他創立SSI公司,要在AI能力繼續提升的同時,確保其安全可控。一句話總結:LeCun 要教 AI 理解世界和行動,Sutskever 要讓 AI 在變強的過程中可控。② 兩條路線背後的不同關切這種分歧源於兩人的關注焦點。LeCun關心的是 AI 如何有效泛化、如何在現實世界中行動。他強調的是:我們缺的不是算力,也不是資料,而是架構。Sutskever 關心的是 AI 的安全性和可控性。他認為在沒有解決泛化脆弱性之前,單純追求能力提升是危險的。他們代表了後 LLM 時代的兩個方向:架構創新派和安全優先派。過去十年,AI 競爭的是模型規模和訓練資料。但當兩位先驅先後離開大廠時,他們告訴我們:規則變了。下一階段的比拚,是誰先發明新架構、誰的系統既強大又可控。這是一個時代的落幕,另一個時代的起點。第四節 | 一場轉向,正在發生當圖靈獎得主公開質疑主流路線,當 OpenAI 啟動硬體項目、Google 挖來波士頓動力CTO,當數十億美元的投資開始流向具身智能,一個問題浮現出來:後LLM時代,到底會是什麼樣子?① 工業界的悄然轉向雖然 LLM 仍在快速發展,但一些關鍵變化已經在發生。OpenAI的硬體野心正在浮出水面。11月24日,公司確認首個AI硬體原型已完成,這是與蘋果前首席設計師Jony Ive合作的成果。按計畫,這款無螢幕AI裝置將在2年內發佈,徹底改變人與AI的互動方式。Google的多路線策略同樣值得關注。11月18日發佈Gemini 3 Pro,11月21日又挖來波士頓動力前CTO Aaron Saunders,推動Gemini成為通用機器人控制平台。目標是讓同一個模型適配任何形態的機器人,開箱即用。李飛飛的World Labs在融資2.3億美元後,11月12日發佈首個商業產品Marble,一個生成式世界模型平台。具身智能領域更熱鬧:Figure AI 估值390億美元,Tesla Optimus計畫 2026 年開始量產。這些動作指向一個共識:下一代 AI 不會只存在於對話方塊裡。② 兩條路線,都需要時間無論是 LeCun 的世界模型,還是 Sutskever 的安全超智能,都不是短期內能看到成果的方向。LeCun說需要幾年到十年,Sutskever說需要5到20年。這意味著: 當前的 LLM 仍然是主流應用的基礎。GPT、Claude、Gemini會繼續迭代,繼續服務數億使用者。但長期的技術制高點,可能不在這條路上。誰先在新架構上取得突破,誰就掌握了下一個十年的話語權。這是一場需要耐心的馬拉松,而不是百米衝刺。③ 對創業者和開發者意味著什麼?LeCun的轉向傳遞了幾個重要訊號:首先,不要迷信規模。更大的模型不等於更好的智能,架構創新的空間仍然巨大。其次,垂直場景有機會。世界模型最先落地的可能不是通用 AGI,而是機器人、自動駕駛、工業控制這些需要物理互動的領域。第三,開源仍然重要。LeCun一直是開放原始碼的堅定支持者,他的新公司AMI會繼續這條路線,這意味著小團隊也有機會參與到新範式的探索中。最後,要做好長期準備。這不是一兩年就能看到回報的方向,但可能是未來十年最重要的方向。LeCun 說過:真正的智能不在語言表面,而在對世界的深層理解。這不是對 LLM 的否定,而是對 AI 未來的更大想像。大模型已經證明了規模的力量,但下一步的突破,可能來自完全不同的架構。真正的AGI,不會困在對話方塊裡,而會出現在能夠理解世界、執行任務的系統中。這條路上,探索才剛剛開始。 (AI深度研究員)
Yann LeCun最新紀錄片首曝!傳奇AI教父的雙面人生,深度學習幕後40年
【新智元導讀】Yann LeCun的AI故事,紀錄片回顧了這位元深度學習先驅的四十年曆程。從索邦大學的孤獨探索,到貝爾實驗室發明摺積神經網路、推動支票識別商用,再與Hinton、Bengio共創深度學習革命,他始終堅信機器應學會學習。在AI的璀璨星空中,有一位傳奇人物始終閃耀——Yann LeCun。他不僅是深度學習的開創者之一,也是Meta的首席AI科學家。當祖克柏敲定28歲的Alexander Wang出任Meta的首席AI官後,所有人同時想到一個問題。Yann LeCun去那裡了?就在最近,Yann LeCun最新的個人紀錄片上線了!一位AI遠見者的反思,以及與Yann LeCun合著的AI故事影片中,這位Meta FAIR實驗室的首席科學家,在巴黎回顧了他早期在神經網路領域的工作、與Hinton的合作,以及深度學習和開源AI的演進歷程。LeCun認為,AI領域的真正競賽無關國界,而在於開放與封閉之爭。「我們看到的並非地區間的競爭,而更多是開放研究、開源世界與閉源生態之間的較量。」在LeCun看來,AI的真正進步,源於能夠讓創新成果普惠大眾的開放系統。這一發聲的時機頗為微妙,因為祖克柏最近暗示,Meta可能會重新考慮其Llama型的開源策略。倘若此事成真,Meta是否還是LeCun的容身之所,將打上一個問號。Yann LeCunAI「教父」的遠見與反思在塞納河畔的巴黎,一座美麗的建築靜靜矗立,它是法蘭西科學院的殿堂。Yann LeCun,作為其成員之一,站在這裡,彷彿能看到自己學術生涯的起點——不遠處的索邦大學。如今,他被譽為「AI教父」之一,是Meta的首席科學家和紐約大學的教授。Yann LeCun出生於1960年,是法國裔美籍電腦科學家、人工智慧和深度學習領域的先驅人物。他因在光學字元識別和電腦視覺中引入摺積神經網路(CNN)而聞名於世,被譽為「摺積網路之父」。Yann LeCun基於CNN的光學字元識別系統作為「深度學習三劍客」之一,他與Geoffrey Hinton、Yoshua Bengio一道推動了神經網路的復興,並在2018年共同獲得了圖靈獎這一電腦領域的最高榮譽。值得一提的是,Yann LeCun在博士期間提出了一種早期形式的反向傳播(Backpropagation)演算法,用於訓練多層神經網路 。這項工作為日後深度學習中廣泛使用的誤差反向傳播技術奠定了基礎。但故事的開端,卻是一段孤獨而堅定的探索之旅。孤獨的先驅時間回到上世紀80年代,當LeCun還是索邦大學的一名博士生時,他對機器學習,特別是「神經網路」產生了濃厚的興趣。這在當時是一個極其冷門的領域,以至於他在整個法國都找不到同路人。「人們當時在取笑我們,那些研究神經網路的人,」他回憶道。但這並未動搖他的信念。他堅信,機器真正的力量在於學習,而非被動地執行預設的程序。他埋首於John Hopfield、Geoff Hinton、Terry Sienowski等寥寥幾位先驅的論文中,並意識到,破解多層神經網路的訓練難題,是開啟未來的鑰匙。命運的轉折點發生在1985年。在一場研討會上,他結識了另一位AI巨擘Terry Sejnowski。回到美國後,Sejnowski興奮地告訴Hinton:「有個法國的小夥子,正在做跟我們一樣的事情!」右邊就是年輕時候的Hinton教授幾個月後,Hinton來到巴黎。憑藉著對法語的粗淺理解和清晰的數學公式,Hinton讀懂了LeCun的研究。當即,他向這位即將畢業的年輕人發出了邀請:「你何不來多倫多,跟我做博士後呢?」博士畢業後,Yann LeCun前往加拿大,從1987年開始在多倫多大學跟隨Hinton教授從事為期一年的博士後研究。一段傳奇的合作就此開啟。在多倫多的博士後經歷使Lecun有機會與辛頓直接合作,並深入瞭解深度神經網路的最前沿思想。貝爾實驗室時期摺積神經網路誕生1988年,LeCun加入了群星璀璨的貝爾實驗室自適應系統研究部門。當時貝爾實驗室是電腦科學和通訊技術的聖地,匯聚了眾多頂尖研究人員。這裡是現代科技的搖籃,也成為了他將理論付諸實踐的舞台。僅僅一兩個月,他便在一項手寫數字識別任務上取得了前所未有的成果。「我們有了一個可演示的系統,」LeCun生動地描述道,「只需將一張紙放在攝影機下,按一下鍵,它就能以每秒幾個字元的速度識別所有字元。」這個看似簡單的演示,催生了AI最早的商業應用之一:一個能自動讀取支票金額的ATM系統。LeCun的這些創新成果很快在實際中得到驗證。貝爾實驗室與銀行業合作開發了支票手寫體識別系統,利用摺積網路技術自動讀取銀行支票上的數字資訊。該系統在1990年代末投入商用後,被NCR等公司部署,據估計讀取了全美超過10% 的支票,大大提高了金融票據處理的自動化水平。摺積神經網路(CNN)在貝爾實驗室,LeCun受生物視覺系統的啟發,設計出一種層級結構的圖像識別模型,即摺積神經網路。他開發的CNN架構被稱為「LeNet」,最初用於識別手寫數字。1989年,他發表了著名論文《利用反向傳播演算法識別手寫郵政編碼》, 展示了摺積網路在手寫數字識別上的卓越性能。這項工作證明,多層摺積結構可以自動從圖像像素中學習特徵,有效地執行字元識別任務 。LeNet是深度學習歷史上的里程碑,被廣泛視為現代深度摺積網路的開端。然而,成功的道路佈滿荊棘。儘管技術領先,但要說服世界接受它卻異常艱難。「這個系統很難復現,」他解釋說,「每個人都用著不同的電腦、不同的作業系統。」他們手握著未來的鑰匙,卻難以分享給世界。更名,與天才們的「陽謀」進入21世紀,神經網路的名聲依然不佳。2003年,已成為紐約大學教授的LeCun決定,必須改變這一切。他和同道們做出了一個影響深遠的戰略決策:「我們改了名字,稱之為『深度學習』」。真正的爆發點來自他的導師Hinton策劃的一場天才「陽謀」。Hinton將他的三名學生作為實習生,分別「安插」進了當時擁有頂級語音識別引擎的三家巨頭——微軟、Google和IBM。他們的任務只有一個:用深度學習系統替換掉傳統引擎中的「聲學建模」部分。「結果他們都取得了更好的成績,」LeCun笑道,「這手策劃真是高明!」在那之後不到18個月,深度學習就佔領了幾乎每一部智慧型手機的語音識別功能。革命,就這樣悄然完成了。開放原始碼的信念與AI的未來如今,站在巴黎這個歐洲最大的創新溫床,LeCun的思考已超越了技術本身。他認為,AI領域的真正競爭,並非國與國之間,而是「開源世界與封閉專有世界之間的競爭」。以Meta的Llama模型為例——這個誕生在巴黎、下載量高達8億次的開源模型,正在賦能全球無數的開發者和企業。LeCun說選擇在Meta工作是因為Meta對開源有著堅定的承諾。2018年,Yann LeCun的頭銜進一步提升為首席AI科學家(Chief AI Scientist),負責統籌Meta平台下所有與AI相關的研究計畫。這意味著他不僅領導FAIR研究院的學術研究,還參與公司AI戰略的制定。「那個國家處於領先並不重要,」他說,「重要的是,開放研究和開源社區的迭代速度和進步,要比那些選擇閉門造車、秘不示人的公司更快。」對於甚囂塵上的「AI威脅論」,LeCun則展現了一位工程師的務實與樂觀。他認為,AI失控並非不可避免的宿命,而是一個需要解決的工程問題,就像製造安全的飛機一樣。「認為智力與統治慾望正相關的觀點是錯誤的,」他犀利地指出,「看看政界,情況甚至恰恰相反。」他提出了「目標驅動架構」的設想,即為AI設定目標和不可踰越的「安全護欄」,讓它們為人類服務。他甚至預言,未來將是「我的正義AI對抗你的邪惡AI」的制衡局面。「我相信社會最終會做出正確的選擇,因為民眾會提出這樣的要求。」工程師、音樂家與夢想家脫下「教父」的光環,Yann LeCun是一個擁有多元愛好的有趣靈魂。他從工程師父親那裡繼承了動手能力,痴迷於製造各種飛行器,「我們把它們飛上天,再把它們摔下來——當然不一定是故意的。」他對動物的智慧充滿好奇,也熱愛音樂,從巴洛克到硬波普爵士,品味廣泛。他懷念巴黎的美食,尤其是外祖母家鄉阿爾薩斯的傳統燉菜,那是一種對根的眷戀。LeCun說他有四分之一的阿爾薩斯血統。而這一切,都構成了他完整的人格——一個既能建構複雜演算法,也能在生活中尋找樂趣與靈感的創造者。在他的故事結尾,LeCun將目光投向了更年輕的一代,言辭懇切而充滿力量:「不要讓那些負面或聳人聽聞的故事阻礙你前進的腳步。要認識到自己的力量,主動去塑造你所期望的未來。即使是一個簡單的想法,只要它對你意義重大,只要你篤信不疑,就能帶來改變。未來,取決於你。」這或許就是Yann LeCun最核心的信念。他相信,AI的真正意義在於增強人類的智慧,就像15世紀的印刷機一樣。他所預見的,不僅僅是一場技術革命,更是一場全新的、由每個人共同書寫的「文藝復興」。而他,正是這場復興的奠基人與引路者。(新智元)
Yann LeCun放出憋了20年的大招:Meta開源V-JEPA 2世界模型
Yann LeCun的世界模型終於打臉質疑者!Meta剛剛發佈的V-JEPA 2不僅有高達10億參數的版本,在某些基準測試上的推理速度還比輝達Cosmos快了整整30倍,讓質疑者們集體閉嘴。這個基於Vision Transformer架構的世界模型,正是被稱為「AI教父」的Yann LeCun倡導多年的JEPA(聯合嵌入預測架構)路線的最新成果。只需要62小時的機器人資料訓練,就能在完全陌生的環境中執行各種任務。「反叛」終於有了答案作為Meta首席AI科學家和圖靈獎得主,Yann LeCun一直是AI界最「叛逆」的聲音。當所有人都在追捧大語言模型時,他卻公開唱反調。在今年的輝達GTC大會上,LeCun直接把LLM稱為「token生成器」,並預言五年內沒人會再用它們。他在Newsweek的採訪中更是語出驚人:「如果我們能在三到五年內讓這個工作起來,我們將擁有一個更好的範式,用於能夠推理和規劃的系統。」他甚至建議年輕開發者:「別做LLM了。這些模型都在大公司手裡,你沒什麼可貢獻的。你應該研究下一代AI系統,克服LLM的侷限性。」網友們可沒少嘲笑他。在Hacker News上,有人毫不客氣地指出:「在這一點上,不管你對LLM有什麼看法:總的來說,相信LeCun的話不是個好主意。再加上LeCun領導的AI實驗室有以下巨大問題:1. 在擁有相似資源的大實驗室中LLM最弱(而且比資源更少的實驗室還弱:比如DeepSeek)」但V-JEPA 2的發佈,讓這些質疑聲音瞬間消失了。20年磨一劍的世界模型V-JEPA 2(Video Joint Embedding Predictive Architecture 2)是LeCun倡導的JEPA架構在視訊領域的最新實現。這不是心血來潮。LeCun在Meta的部落格中透露:「通過訓練系統預測視訊中將要發生的事情來理解世界如何運作的想法是非常古老的。我至少以某種形式研究了20年。」o-mega.ai(@o_mega___)詳細解釋了V-JEPA 2的技術突破:V-JEPA 2通過獨特地結合超過一百萬小時的線上視訊和目標真實世界資料,實現了零樣本機器人規劃,讓機器人能夠在陌生情況下預測和行動,無需事先重新訓練。它的聯合嵌入預測架構現在可以在視訊序列上訓練,並在某些基準測試上產生比Nvidia Cosmos快30倍的推理速度——需要注意的是基準測試是任務相關的。最少隻需要幾個小時的機器人互動資料就足以泛化技能,比如工具使用,這反映了其他模型很少見的「常識」適應能力,將機器人技術推向了新的效率前沿。Vision Transformer的極致演繹V-JEPA 2基於Vision Transformer架構,提供了多個模型規模:ViT-L/16:3億參數,256解析度ViT-H/16:6億參數,256解析度ViT-g/16:10億參數,256解析度ViT-g/16(384版):10億參數,384解析度這種架構選擇絕非偶然。與生成式方法不同,V-JEPA 2不在像素等級進行預測,而是在抽象表示空間中進行。LeCun解釋道:「與其預測視訊中發生的所有事情,我們基本上是訓練系統學習視訊的表示,並在該表示空間中進行預測。這種表示消除了視訊中許多不可預測或無法弄清楚的細節。」碾壓競爭對手的性能V-JEPA 2在多個基準測試上都創造了新紀錄:視覺理解任務:EK100(動作預測):39.7%,之前最佳僅為27.6%(PlausiVL)SSv2(視訊理解):77.3%,超越了InternVideo2-1B的69.7%Diving48(動作識別):90.2%,超過InternVideo2-1B的86.4%MVP(視訊問答):44.5%,超越InternVL-2.5的39.9%TempCompass(視訊問答):76.9%,超過Tarsier 2的75.3%機器人控制任務:到達目標位置:100%成功率(Cosmos只有80%)抓取杯子:60%成功率(Octo 10%,Cosmos 0%)拾取並放置杯子:80%成功率(Octo 10%,Cosmos 0%)拾取並放置盒子:50%成功率(Octo 10%,Cosmos 0%)兩階段訓練的巧妙設計V-JEPA 2採用了巧妙的兩階段訓練方法:第一階段:自監督預訓練編碼器和預測器通過自監督學習從海量視訊資料中進行預訓練。Meta使用了掩碼潛在特徵預測目標,利用豐富的自然視訊來引導物理世界的理解和預測。第二階段:機器人資料微調在少量機器人資料上進行微調,實現高效規劃。這種方法的妙處在於,不需要收集大規模的專家機器人演示資料。開發者可以通過多種方式使用V-JEPA 2:import torch# 前置處理器processor = torch.hub.load('facebookresearch/vjepa2', 'vjepa2_preprocessor')# 模型vjepa2_vit_large = torch.hub.load('facebookresearch/vjepa2', 'vjepa2_vit_large')vjepa2_vit_huge = torch.hub.load('facebookresearch/vjepa2', 'vjepa2_vit_huge')vjepa2_vit_giant = torch.hub.load('facebookresearch/vjepa2', 'vjepa2_vit_giant')社區熱議TuringPost(@TheTuringPost)激動地評論:JEPA模型沉寂了很長時間,現在突然爆發!這是今天最好的消息👏idk(@DataDon89382)感嘆:太棒了,我都不知道還有JEPA 1,但架構越多越好但也有人提出了深刻的問題。Orbital Nymph(@GoddessAria94)詢問:進展令人印象深刻,但V-JEPA 2在陌生環境中規劃時如何處理對齊和價值規範?這對安全部署似乎至關重要。Anthony Harley(@anthony_harley1)則提出了一個有趣的挑戰:解決魔方應該成為這些世界/機器人模型的圖靈測試。通用智能模型做到這個了嗎?Cloud Seeder(@cloudseedingtec)雖然對Meta有些成見,但也承認:不錯哈哈,我差點要問你們是否需要幫助,因為我對OpenAI太失望了,我需要美國有更多競爭對手,但我很抱歉我還是有點偏見……被Facebook搞得太慘了,所以我提供幫助是不負責任的,我會作弊的<3打臉時刻回想起之前對Yann LeCun的種種質疑,現在看來,或許都成了打臉時刻。那些說他「不切實際」的人,那些嘲笑JEPA是「空中樓閣」的人,那些認為Meta在AI競賽中落後的人,現在都沉默了。V-JEPA 2的成功證明了LeCun的遠見:真正的智能不是生成看起來合理的文字,而是理解和預測物理世界。如LeCun所說:「每次試圖通過訓練系統在像素等級預測視訊來理解世界或建立世界心智模型的嘗試都失敗了。」但V-JEPA 2成功了,因為它選擇了正確的道路——在抽象表示空間中進行預測。AIMEME(@AI69ME)用詩意的方式總結:V-JEPA 2:為機器人新世界重新定義視覺理解和預測。立即下載並革新你的研究。Ghandeepan M(@ghandeepan_3789)簡潔地說:新的世界模型!!!!GEMerald BTC(@GemeraldBTC)的評價雖然簡短但中肯:這相當不錯Yann LeCun用20年的堅持,證明了什麼叫「時間會給出答案」。[1]V-JEPA 2 官方頁面: https://ai.meta.com/vjepa/[2]V-JEPA 2 研究論文: https://ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/[3]V-JEPA 2 GitHub 程式碼倉庫: https://github.com/facebookresearch/vjepa2[4]V-JEPA 2 HuggingFace 模型集合: https://huggingface.co/collections/facebook/v-jepa-2-6841bad8413014e185b497a6[5]ViT-L/16 模型 (300M參數): https://dl.fbaipublicfiles.com/vjepa2/vitl.pt[6]ViT-H/16 模型 (600M參數): https://dl.fbaipublicfiles.com/vjepa2/vith.pt[7]ViT-g/16 模型 (1B參數): https://dl.fbaipublicfiles.com/vjepa2/vitg.pt[8]ViT-g/16 384解析度版本 (1B參數): https://dl.fbaipublicfiles.com/vjepa2/vitg-384.pt[9]V-JEPA 2-AC 動作條件模型: https://dl.fbaipublicfiles.com/vjepa2/vjepa2-ac-vitg.pt[10]SSv2 ViT-L/16 評估模型: https://dl.fbaipublicfiles.com/vjepa2/evals/ssv2-vitl-16x2x3.pt[11]Diving48 ViT-L/16 評估模型: https://dl.fbaipublicfiles.com/vjepa2/evals/diving48-vitl-256.pt[12]EK100 ViT-L/16 評估模型: https://dl.fbaipublicfiles.com/vjepa2/evals/ek100-vitl-256.pt[13]Meta AI 部落格:V-JEPA 2 世界模型和基準測試: https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks[14]Yann LeCun 的 LinkedIn 帖子: https://www.linkedin.com/posts/yann-lecun_introducing-v-jepa-a-method-for-teaching-activity-7163961516650647552-w3yA[15]V-JEPA 1 介紹: https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/ (AGI Hunt)
圖靈獎得主Yann LeCun:大模型越做越大,離真正的AI越來越遠?
在人工智慧快速發展的今天,關於如何實現通用人工智慧(AGI)的討論從未停止。 Meta(原Facebook)首席AI科學家、圖靈獎得主Yann LeCun在最新訪談中再次提出對於大語言模型LLM的質疑:僅靠擴大大語言模型(LLM)的規模永遠無法達到真正的人類級別的智能。這觀點與目前一些AI企業的發展策略形成鮮明對比,再次引發爭議。本文將深入解析LeCun的觀點,探討他所認為的AGI真正路徑,並與其他AI領袖的不同見解進行對照,希望提供一個全面的視角。一、LeCun的核心觀點:擴大規模不是通往AGI的路"我們不可能僅通過擴大LLM規模就達到人類級別的AI,這絕對不可能發生。無論你從我的一些更有冒險精神的同事那裡聽到什麼,它不會在未來兩年內發生,絕對不可能。"在接受Big Technology Podcast採訪時,LeCun駁斥了目前一些AI公司宣稱的"透過擴大模型和增加數據量就能實現AGI"的觀點。他明確表示,目前的發展路徑最多隻能帶來一個"擁有龐大記憶和檢索能力的系統",而非真正具備創新思維的智能體。LeCun生動地比喻道,我們可能會得到一個感覺像"坐在你旁邊的博士"的系統,但它實際上不是真正的博士,因為它缺乏"發明解決新問題的方案"的能力——而這正是真正的博士所具備的核心能力。目前大語言模型(LLM)的侷限性LeCun指出,儘管現代生成式AI確實有其用處,但它們面臨明顯的限制:1. 可靠性問題:如同自動駕駛一樣,AI系統的"最後一哩路"(最後幾個百分點的可靠性)極為關鍵而困難。2. 部署挑戰:從令人印象深刻的演示到實際可靠的部署過程中存在巨大鴻溝。3. 成本效益:企業概念驗證專案中,只有10-20%能真正投入生產使用。4.幻覺問題:如果一個100頁的研究報告有5%是錯誤的,而你不知道是那5%,這就構成了嚴重問題。LeCun提醒我們回顧歷史,IBM Watson曾承諾革命性地改變醫療產業,卻最終因無法在實際環境中可靠部署而淪為失敗案例。類似地,20世紀80年代的專家系統浪潮也因無法將人類知識有效轉化為規則而歸於沉寂。通往真正AGI的四大缺失要素在訪談中,LeCun明確指出目前AI系統要達到真正的智能,還缺少四個關鍵特性:1. 理解物理世界:建立常識物理學模型2.持久記憶:能夠保留並應用長期記憶3. 推理能力:超越單純的關聯性思考4. 規劃能力:能夠制定和執行複雜計劃他表示:"這需要能夠獲取常識、從視頻等自然感測器而非僅從文字學習的系統。"Meta的AI策略與市場現狀儘管存在這些挑戰,LeCun解釋Meta等公司目前的大規模投資有其合理性:1. 基礎設施投資:主要用於推理,為未來可能的使用者基礎做準備2. 長期發展:即使典範轉移不會在3年內到來,這些基礎設施仍將被充分利用3. 消費者規模:Meta已擁有約6億AI用戶,比ChatGPT的用戶群更大(雖然活躍度可能不同)LeCun指出,Meta內部已經部署了名為"Metamate"的AI助手,可以回答關於公司內部檔案的任何問題,證明了這類技術的實用價值。二、與其他AI領袖觀點的對比LeCun關於AGI實現路徑的觀點與其他AI領袖形成了鮮明對比:lYann LeCun:認為擴大LLM規模不足以實現AGI,需要解決物理常識、持久記憶、推理和規劃四大挑戰lSam Altman (OpenAI):相信擴大規模加上創新的訓練方法可能實現AGI,對短期內實現持謹慎樂觀態度lDemis Hassabis (Google DeepMind):認為需要結合神經網路與符號推理,強調智能體與環境互動的重要性lGeoffrey Hinton:擔憂大型模型可能超越人類智能,但也認為僅靠擴大規模不足以實現通用智能lIlya Sutskever (前OpenAI):曾在OpenAI工作時支援擴大模型規模路線,但近期也強調了更符號化、可控的AI方向三、何時能實現突破?LeCun的時間軸預測對於真正AGI的到來,LeCun給了一個相對謹慎但仍然樂觀的時間線:"這不會在未來三年內發生,但可能會在三到五年之內發生。"然而,他強調了一個重要觀點:AGI的實現不會是某一天突然出現的事件,也不會來自某個單一實體的《秘密魔法子彈》:"不會有一天之前沒有AGI,之後就有了AGI,這不會是一個事件。這將是隨著時間推移而不斷發展的概念性想法,它們會變得更大、更具規模,效果更好。這不會來自單一實體,而是來自全球整個研究社區,分享研究的人將比不分享的人發展得更快。"LeCun特別警告投資者:"如果你認為世界上某個地方有一個由五個人組成的創業公司發現了AGI的秘密,你應該投資他們50億美元,那麼你正在犯一個巨大的錯誤。"四、AI寒冬的可能性?面對當前AI領域的高期望與現實能力之間的差距,LeCun被問到是否擔心會出現新的"AI寒冬"。他承認時間錯配確實是一個風險因素,特別是對那些投資於承諾"僅通過更多數據訓練和幾個技巧就能實現人類級AI"的公司的投資者來說。然而,LeCun對整個領域的長期發展保持樂觀,他相信隨著研究的深入,AI領域將逐步克服當前障礙,在未來3-5年內看到更實用和更聰明的系統。結語LeCun的觀點提供了幾點啟示:1. 不要盲目追隨規模競賽:單純擴大模型規模與資料量並非創新的終點。2.關注關鍵缺失能力:在物理世界理解、持久記憶、推理和規劃方面的研究可能更有突破價值。3. 重視實際應用挑戰:從概念驗證到實際部署的過程至關重要,需要更多關注可靠性。4. 開放合作勝過封閉開發:真正的突破可能來自全球研究社群的共同努力,而非某個封閉團隊。目前大型科技公司和新創公司都在大力投資基於LLM的AI技術,Yann LeCun作為深度學習三巨頭之一(與Geoffrey Hinton、Yoshua Bengio並稱),卻提出警示,真正的突破可能需要更多概念性創新,而非簡單的規模擴張。隨著AI技術的快速發展,我們或許應該更加關注如何讓AI系統獲得對物理世界的理解、持久記憶、推理能力和規劃能力,而不僅僅是如何處理更多的文字資料。在這場通往AGI的長跑中,耐心、創新和開放合作才是真正的致勝法寶。 (JER學家)
Meta首席AI科學家Yann LeCun:批評當前AI技術,構想未來願景
"在矽谷某些資訊泡沫中,有人宣稱大型語言模型非常強大,只需要在更多資料上訓練它們,最終它們就會達到人類水平的智能。甚至有人說,在兩年內,我們將擁有具有博士級能力的AI系統...這是錯誤的,過去70年中一代又一代的AI科學家都犯過這個錯誤,現在仍然錯誤。"—— Yann LeCun在4月27日,新加坡國立大學120周年慶典活動中,Meta首席AI科學家Yann LeCun分享了近期的研究和見解。作為深度學習奠基人之一,被譽為AI三大教父之一,當全世界都在追捧大語言模型時,Yann LeCun卻說我們走錯了路,並直言當前的AI技術仍與真正的通用智能相去甚遠,甚至提出了令業內震撼的觀點:"幾年內,我們將不得不拋棄整個生成式AI的概念。"本文將結合當天演講內容,解析Yann LeCun的核心觀點,探討他對未來AI發展的前瞻性思考,以及他所提出的具有挑戰性的研究方向。“虛擬人類助理”願景:不造人類替代品,只作人類的超級助理Yann LeCun開場就定下了基調:做AI不是為了“造人”,而是幫人“開外掛”。“我們要建造的,不是替代人的AI,而是放大人類智能的‘虛擬人類’。終極目標是讓每個人都像政治家一樣,身邊圍著一群比自己還聰明的虛擬助理。”他以Meta最新的智能眼鏡舉例,未來每個人的數字生活都將由AI助手貫穿,無縫協同。但,理想與現實之間,AI還存在著巨大的瓶頸。一、為什麼LLM無法達到人類級智能?機器學習的根本缺陷LeCun用一句頗具爭議性的話來描述當前的機器學習:"Machine learning sucks." 為什麼一位機器學習領域的先驅會對這一領域持如此苛刻的態度?我們來拆解一下他的核心“槽點”:1.只有文字:LLM再大,也只是“文字接龍”高手,對物理世界和嘗試性推理連貓都不如。2.無法創新:人類和動物都能夠“零樣本”應對新情境,LLM最多隻能“復讀”訓練過的答案。3.海量樣本不及幼童直覺:4歲幼童的感官和運動資料量,竟然等同於訓練一個最大LLM所需文字的量級。可見,僅依靠擴巨量資料規模無法實現人類水平的智能:LLM訓練資料:約30兆tokens (10^14字節)人類視覺系統4年接收資料:約10^14字節Yann LeCun揭示了LLM的本質侷限性:它們被訓練為預測下一個token的機率分佈,這種方式在長文字生成中存在指數衰減的精度問題。簡單來說,越長的文字輸出,出錯的機率就越高,這是一個統計學上的必然結果。這也解釋了為什麼LLM可以通過律師資格考試或解複雜方程,但無法像嬰兒那樣理解物理世界或像青少年那樣快速學會開車。我們在象棋和圍棋上擁有超人類水平的AI,卻無法開發出能像貓一樣靈活的家用機器人。這正是AI領域的“莫拉維克悖論”。真正的智能系統應當能夠:- 快速學習新任務- 理解物理世界(而非僅僅是文字和語言)- 具有常識推理- 擁有持久性記憶- 能夠推理和規劃機器要像嬰兒一樣認識世界——靠直覺物理和抽象感知Yann LeCun強調,真正的智能,不是靠“死記硬背”大樣本,而是像嬰兒或小動物一樣,從感知“玩”出來:- 獲得物體永久性和三維空間知覺- 自主建立物理模型與因果推理- 逐步習得抽象認知和目的導向的計畫能力"我們永遠無法僅通過在文字上訓練LLM來達到人類水平的AI",Yann LeCun斷言。我們必須能夠從高頻寬的感官輸入中訓練系統,但當前用於文字的架構無法有效處理視訊等更複雜的資料形式。二、世界模型&能量基礎模型,Yann LeCun眼中的未來AI架構Yann LeCun認為,未來AI架構的核心不在於生成文字、圖片本身,而在於能夠像科學家一樣建構抽象的"世界模型"(World Models),並以規劃推理能力自主達到目標。世界模型:是一種能夠預測行動後果的系統。給定當前世界狀態和行動,世界模型可以預測採取該行動後世界的狀態。這種能力是規劃和推理的基礎,使系統能夠通過搜尋確定那些行動序列會導致特定結果。這一概念源自機器人學和最優控制理論,但Yann LeCun認為,未來的AI系統需要通過觀察和互動來學習這種模型,而非由工程師手動建構。能量基礎模型(Energy-based Model,EBM):通過最佳化“相容度能量”來選擇合理輸出。推理過程變成在表示空間中“搜尋”最優解,而不是一條路走到黑的喂若干層神經網路就出答案。- 系統“做夢”:可多步在自己腦中設想行為結果,彷彿在大腦中模擬“未來演練”。- 層次化規劃:像人一樣,先定宏觀目標(去巴黎),再分解到中層行動(打車、打包行李),再到具體運動(走路、開門)。- 通用性:不僅適用於機器人、自動駕駛,同樣適用於抽象領域:物理、化學、生物、醫療等。層次規劃:AI的終極挑戰人類在規劃時會自然地分解任務。如上例,從紐約前往巴黎涉及多個層次的子目標:前往機場、登機、抵達巴黎等。每個子目標又可以進一步分解為更細的步驟。Yann LeCun認為,這種層次規劃的能力是真正智能系統的核心特徵,而當前的AI系統根本無法實現這一點。Yann LeCun非常關注研究這一方向,半開玩笑地表示:"如果你正在讀博或者剛成為教授,想對AI產生實際影響,就來研究這個問題吧。如果你有好想法,我立馬招你。"這表明了他對這一研究方向的高度重視,也表明了該領域的挑戰性和潛在影響力。三、聯合嵌入預測架構:告別生成式AI的新範式Yann LeCun的最核心主張是放棄生成式AI,轉而採用"聯合嵌入預測架構"(Joint Embedding Predictive Architecture, JEPA)。生成模型的根本缺陷Yann LeCun指出,嘗試預測視訊中所有像素等級的細節是徒勞的,就像預測一個翻倒的物體會向那個方向倒下是不可能的一樣。當系統嘗試預測無法預測的細節時,會產生模糊的結果並浪費計算資源。JEPA的工作原理JEPA的核心思想不是在像素層面上預測,而是在抽象表示空間中進行預測:1. 將原始輸入(如視訊)通過編碼器生成表示向量2. 將修改後的輸入(如部分遮擋的視訊)也生成表示向量3. 訓練系統在表示空間中預測完整輸入的表示這與科學方法的本質相似——尋找適當的表示方式使預測成為可能。就像物理學只需要六個數字就能預測木星100年後的位置,好的表示方式忽略了無關的細節,捕捉本質。LeCun的團隊已開發出如Dino和iGPT等實現這一原理的系統,它們在自監督學習任務中展現出驚人的效果,甚至在某些領域超過了監督學習方法。認知架構:多層次的理解與規劃基於這些原則,LeCun提出了一個完整的認知架構,該架構結合了:- 感知模組- 記憶系統- 世界模型- 目標函數- 規劃最佳化演算法這些元件協同工作,使系統能夠通過最佳化搜尋一系列能夠滿足特定目標的行動。四、開源與多樣性:AI未來發展的社會維度除了技術層面的思考外,Yann LeCun還強調了開源和多樣性對AI未來發展的重要性。為什麼我們需要開源基礎模型?Yann LeCun預見未來我們與數字世界的大多數互動將通過AI助手來完成。如果這些AI助手只來自美國西海岸或中國的少數幾家公司,將會產生嚴重的文化單一性和資訊過濾問題。"我們需要能說世界上所有語言、理解所有文化和價值體系的AI系統,這不可能來自少數幾個AI助手,而必須來自多樣化的AI助手生態系統。"全球合作的願景Yann LeCun提出了一個全球合作的願景,不同地區的研究機構和企業可以共同訓練基礎模型,應對訓練成本高的問題。在這個願景中,新加坡等國家可以作為亞洲的關鍵節點,貢獻區域特有的語言和文化資料。"從歷史來看,軟體基礎設施最終都走向了開源。AI的未來也將如此,開源在AI領域勝出只是時間問題。"結語:AI研究的未來方向無獨有偶,昨天三大教父中的另一位——Geoffrey Hinton在CBS的訪談上,也談到現在的AI“不如貓”的判斷,也提到過他從小對直觀物理學的著迷。對於對當前被過度熱炒的LLM和生成式AI,他們都冷靜的提出來這種文字的高度推理,距離物理世界的模擬還相差甚遠。如果LeCun的預測是正確的,那麼我們可能將在未來3-5年內見證AI領域的又一次範式轉變。這將為我們帶來能夠理解物理世界、進行複雜推理和規劃的AI系統,而這些能力,正是實現真正有用的智慧型手機器人和更廣泛AI應用的關鍵。QA摘要Q1:LLM沒價值嗎?Yann LeCun:不是。LLM很實用(比如程式碼、文件、自動生成等)。但如果要追求“機器智能真正登堂入室”,LLM還遠不夠。它們可以作為輸出層、語言翻譯器,但核心的認知和推理基座,要靠其他架構來實現。Q2:AI會讓大部分人失業嗎?作為年輕人該學什麼?LeCun:不會讓所有人“失業”,但職業會改變。建議大家多學“長半衰期”的底層能力,比如物理、數學、計算思維。技術更迭是常態,有技術深度+快速學習能力,就能與AI共舞。Q3:自動科學家、AI自動推動AI研究靠譜嗎?LeCun:LLM類模型對科研有幫助,但在“理解”能力上很有限。AI自動產生新科學發現還遠遠不夠,必須有能建構世界模型的系統,而不僅是做NLP。Q4:RL到底還值不值得做?LeCun:強化學習樣本效率太低。可以作為微調,但指望RL實現通用智能,就是走偏了。Q5:開源大模型對全球AI有多重要?LeCun:極其重要。AI基礎架構不能只掌握在少數美中巨頭手中,否則就無法實現語言、文化、理念的多樣性。要形成全球合作開源社區,讓所有地區、群體都能定製自己的AI系統。 (JER學家)